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基于 分 部 评分 模型 的 思路 ， 本 文 提出 了 一 般 化 的 分 部 评分 认 知 诊断 模型 (General Partial Credit Diagnostic 
分 部 评分 模型 思路 的 多 级 评分 模型 GDM (von Davier, 2008) 和 PC-DINA (de 
GPCDM 的 Q 矩阵 定义 更 加 灵活 , 项 目 参 数 的 约束 条 件 更 少 。 


Monte Carlo 实验 研究 表明 ， 


GPCDM 模型 的 参数 估计 精度 指标 RMSE 介 于 [0.015, 0.043], 表明 估计 精度 尚 可 ; TIMSS (2007) 实 证 数据 应 用 研究 


表明 , 与 GDM Ail PC-DINA 模型 相 比 , GPCDM 与 该 数据 的 拟 合 度 更 好 , 并 且 使 用 GPCDM 分 析 该 数据 的 诊断 效果 


供 诊断 性 评价 、 形 成 性 评价 。 我 国 在 2010 年 通过 
的 《国家 中 长 期 教育 改革 和 发 展 规划 纲要 


也 更 优 。 总 之 , 本 研究 提供 了 一 种 约束 条 件 更 少 、 功 能 更 为 强大 的 多 级 评分 认 知 诊断 模型 。 
关键 词 。 认 知 诊断 ; 多 级 评分 认 知 诊断 模型 ; GDM; PC-DINA 
FES B841 
1 引言 
目前 ,教育 评估 和 心理 计量 学 的 最 新 发 展 越 来 


越 强 调 形成 性 评估 (Formative Assessments)， 它 可 
以 提供 更 多 的 信息 来 改进 学 习 和 教学 策略 。 认 知 诊 
IPE {A (Cognitively Diagnostic Assessments, CDA) 
旨 在 测量 特定 的 知识 结构 和 加 工 技能 ， 从 而 为 教师 
和 学 生 提 供 即 时 的 诊断 信息 ， 以 便 对 课堂 教学 进行 
相应 的 规划 或 修改 ,以 促进 个 体 的 全 面 发 展 (de la 
Torre & Minchen, 2014; Leighton & Gierl, 2007)。 特 
别 地 ， 美 国 2001 年 通过 了 《不 让 一 个 孩子 掉队 法 》 
法 案 (No Child Left Behind Act of 2001), 法 案 要 求 
测验 要 给 学 生 、 家 长 和 老师 提供 有 价值 的 诊断 性 报 
告 , 报告 要 包括 关于 学 生 在 解决 问题 时 所 需 的 基础 
知识 和 认 知 处 理 技能 等 方面 的 掌握 信息 ， 从 而 为 学 
生 提 供 量 身 定制 的 教育 服务 。 美 国政 府 2015 年 再 
次 通过 了 每 个 学 生成 功 (Every Student Succeeds Act) 
教育 法 案 ， 新 法 案 继续 强调 测验 要 为 学 生 及 家 长 提 
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(2010-2020 年 ) 强调 要 注重 因材施教 , 减轻 学 生 负 
H, 改革 教学 评价 制度 ,建立 科学 的 教育 质量 评价 
体系 等 。 从 国内 外 的 教育 政策 可 见 , CDA 在 未 来 的 
教育 评估 领域 将 会 发 挥 更 大 的 作用 。 

当前 , 研究 者 已 经 开发 了 大 量 的 二 级 (0-1) 评 分 
认 知 诊断 模型 (Cognitive Diagnosis Model, CDM), 
然而 在 实际 教育 和 心理 评估 测验 中 存在 大 量 多 级 
评分 的 数据 ,例如 ,心理 测验 中 经 常 使 用 李 克 特 型 
(Likert-type) 量 表 问 卷 ， 在 态度 倾向 性 的 问卷 中 , 使 
用 “完全 不 同意 ”,“ 不 同意 ”,“ 不 确定 ”,“ 同 意 ” 和 “ 完 
全 同意 ”等 5 个 选项 来 表示 不 同 程度 的 态度 倾向 ， 
每 个 选项 代表 不 同 的 得 分 。 不 仅 如 此 , 与 二 级 评分 
的 题目 相 比 ， 多 级 评分 题目 可 以 提供 更 多 的 信息 ， 
它 只 需要 更 少 的 题目 就 能 达到 和 较 多 二 级 题目 同 
样 的 测量 精度 (van der Ark, 2001)。 

为 了 分 析 多 级 评分 数据 ,一 个 常用 的 方法 是 将 
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多 级 评分 数据 转换 为 二 级 评分 , 然后 再 使 用 二 级 评 
分 的 CDM 来 分 析 (Templin & Henson, 2006)。 然 而 ， 
经 过 转换 之 后 必然 要 损失 很 多 有 价值 的 信息 ，Ma 
和 de la Torre (2016) 以 及 Tu, Zheng, Cai, Gao 和 
Wang (2017) 的 研究 均 发 现 , 与 使 用 多 级 评分 模型 
HEE, 使 用 二 级 评分 模型 分 析 多 级 评分 数据 会 在 很 
大 程度 上 降低 测验 的 精度 。 

Mellenbergh (1995) 根 据 模型 将 多 级 评分 数据 
二 级 化 的 方式 将 IRT 的 多 级 评分 模型 分 为 3 类 : (1) 
累积 概率 (cumulative probability models) 模 型 , 或 者 
也 被 称 作 等 级 反应 (graded-response models) 模 型 ， 
它 是 基于 全 局 或 累积 logit (global or cumulative 
logit) 的 一 类 模型 (2) 连续 比率 (continuation ratio 
models) 模 型 ,或 者 也 被 称 作 顺序 (sequential) 模 型 ， 
它 是 基于 连续 比率 logit (continuation ratio logit) 的 
一 类 模型 ; (3) 相 邻 类 别 (adjacent category) 模 型 ， 或 
者 也 被 称 作 分 部 评分 (partial-credib 模 型 ， 它 是 基于 
局 部 或 相 邻 类 别 logit (local or adjacent category 
logib) 的 一 类 模型 。 这 3 类 模型 将 多 级 评分 数据 二 级 
化 的 方式 是 完全 不 同 的 , 假设 题目 满分 是 3 分 , 定 
Mt=1,2,3, 累积 概率 模型 (cumulative probability 
models) 二 分 为 P(x>t) 和 P(x<t)， 而 连续 比率 模 
型 (continuation ratio models) 则 二 分 为 P(x>t) 和 
P(x =t-D， 相 邻 类 别 模型 (adjacent category models) 
二 分 为 P(x=t) 和 P(x=t-1)。 因 此 , 这 3 类 模型 的 
建 模 思 路 是 完全 不 同 的 ， 各 有 特点 ， 累 积 概率 模型 
侧重 于 分 析 某 个 等 级 以 上 (包括 该 等 级 ) 所 有 等 级 与 
该 等 级 下 (不 包括 该 等 级 ) 所 有 等 级 之 间 的 关系 ; 连 
续 比 率 模 型 侧重 于 分 析 某 个 等 级 以 上 (包括 该 等 级 ) 
与 该 等 级 的 向 下 一 个 等 级 之 间 的 关系 ; 而 相 邻 类 别 
模型 侧重 于 分 析 两 个 相 邻 类 别 之 间 的 关系 。 因 此 ， 
累积 概率 模型 是 从 整体 出 发 考虑 模型 的 建构 ， 这 类 
模型 更 适用 于 分 析 不 强调 具体 解 题 步骤 的 诊断 测 
验 ， 例 如 ， 写 作 水 平 测验 。 而 连续 比率 模型 和 相 邻 
类 别 模型 都 是 基于 解 题 步 又 (steps) 来 考虑 模型 的 建 
构 ， 但 连续 比率 模型 更 强调 作答 过 程 是 连续 步骤 
(consecutive steps)， 即 只 有 成 功 地 完成 前 面 的 所 有 
步骤， 才 能 成 功 地 执行 下 一 步 ， 它 适合 分 析 解 题 步 
又 之 间 具 有 严格 顺序 关系 的 题目 ; 而 相 邻 类 别 模型 
是 基于 一 个 局 部 步骤 (local step) 来 建 模 ， 即 被 试 在 
当前 步骤 的 解答 只 和 前 一 步 有 关 ， 这 类 模型 更 适合 
分 析 相 邻 步骤 之 间 具 有 依赖 关系 的 题目 。Tutz 
(1997) 认 为 相 邻 类 别 模型 更 适合 分 析 评 定量 
(rating scales) 类 型 的 题目 ,连续 比 率 模型 更 适合 分 


析 解 答 过 程 包含 一 系列 连续 步骤 的 题目 。 

在 CDA 领域 , 研究 者 已 经 开发 了 少量 的 多 级 
评分 CDMs (polytomous CDMs)。 但 是 已 有 的 多 级 
评分 CDMs 主要 是 属于 累积 概率 (cumulative 
probability) 模 型 和 连续 比率 (continuation ratio) 模 
型 。 Hansen (2013) 借 鉴 Samejima (1969) 等 级 反应 模 
型 (Graded Response Model, GRM) 的 思想 , 提出 了 
多 级 评分 的 LCDM RAL, RAI., KE. W 
和 丁 树 良 (2010) 基 于 等 级 反应 模型 (GRM) 的 建 模 思 
路 提出 了 多 级 评分 的 DINA 模型 (polytomous DINA 
P-DINA). H., HEMRA (2016) 在 P-DINA 
模型 的 基础 上 加 以 改进 ， 提 出 了 拓 广 的 P-DINA 
(Generalized P-DINA, GP-DINA) 模 型 。Ma 和 de la 
Torre (2016) 在 G-DINA 模型 的 基础 上 提出 了 序列 
加 工 G-DINA 模型 (sequential G-DINA), 序列 加 工 
G-DINA 模型 是 基于 连续 比率 (continuation ratio) 模 
型 的 一 个 特例 。 

然而 ， 目 前 对 于 相 邻 类 别 (adjacent category) 或 
者 分 部 评分 (partial-credit) 类 的 多 级 评分 CDMs 的 
研究 还 相对 薄弱 ,已 有 的 分 部 评分 多 级 CDMs 模型 
仅 有 von Davier (2008) 提 出 的 一 般 诊 断 模型 
(General Diagnostic Model, GDM) fll de la Torre 
(2012) 提 出 的 分 部 评分 DINA (Partial Credit DINA, 
PC-DINA) 模 型 。 但 这 两 个 模型 具有 以 下 缺陷 : 

(1) 首先 ,这 两 个 模型 的 Q 矩阵 均 定义 在 题目 
水 平 (item level)， 即 它们 的 一 个 潜在 假设 是 同一 题 
目 中 不 同 得 分 类 别 考察 的 属性 是 相同 的 , 但是， 这 
可 能 会 导致 部 分 诊断 信息 的 丢失 。 因 为 , 不 同 得 分 
类 别 所 考察 的 属性 可 能 是 不 同 的 ， 如 果 将 Q@ 和 矩阵 定 
义 在 类 别 水 平 (category level) 可 以 提供 更 多 的 诊断 
信息 ， 从 而 提高 诊断 测验 的 估计 精度 。 为 了 方便 ， 
题目 水 平 (item leveD 和 类 别 水 平 (category level) HY 
Q MEMES HI fA PKA Item-Q 和 Cat-Q。 现 以 一 个 例子 
来 说 明 两 种 Q 和 矩阵 的 区 别 ( 见 表 1D)， 例 如 ， 

8.5/0.5-8 这 道 数学 题目 考察 了 3 个 属性 , Al 表示 
减法 ; A2 表示 除法 ; A3 表示 开平 方 。Cat-Q 第 一 步 
考察 了 A2 属性 , 第 二 步 考察 了 Al 属性 , 第 三 步 考 
察 了 A3 属性 ,而 Item-Q 则 假设 每 个 得 分 类 别 考察 
的 属性 等 于 整个 题目 考察 的 属性 ， 即 每 一 步 都 考察 
T Al, A2 和 A3 这 3 个 属性 。 

(2) 其 次 , 对 于 GDM 模 型 而 言 , 它 假设 属性 之 
间 不 存在 交互 效应 ， 即 它 只 考虑 了 属性 的 主 效应 。 
而 在 实际 的 数据 中 ,属性 之 间 常 常 存 在 交互 效应 ， 
即 被 试 答对 题目 的 概率 不 仅 受 到 属性 主 效应 的 影 


at 
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表 1 两 种 不 同类 型 的 Q 和 矩阵 示例 
Cat-Q Item-Q 
步 又 得 分 类 别 Al A2 A3 Al A2 A3 
减法 除法 天方 减法 除法 FT 
V8.5/05-8 1 1 1 
步骤 1: 8.5/0.5 =17 1 0 1 0 
步骤 2: 17-8 =9 2 1 0 0 
步骤 3: V9 =3 3 0 0 1 
啊 ， 还 受到 属性 之 间 交 互 效 应 的 影响 ; (3) 对 于 
PC-DINA 模型 来 说 LILI Dina goumen, PPn) Aiea (Auda) D Le Br 


DINA 模型 假设 属性 没有 主 效应 , 仅 有 所 有 属性 间 
的 交互 效应 , 它 属于 具有 严格 理论 假设 的 简单 模型 ， 
因此 , 它 不 具 一 般 性 认 知 诊断 模型 的 优势 。 

基于 此 , 本 研究 重点 关注 基于 分 部 评分 模型 的 
建 模 思路 ， 开 发 出 新 的 功能 更 为 强大 的 多 级 评分 认 
知 诊断 模型 ， 以 弥补 当前 国际 上 基于 分 部 评分 模型 
思路 的 多 级 评分 CDMs (如 GDM 和 PC-DINA) 的 不 
足 。 新 开发 的 模型 不 仅 将 属性 定义 在 得 分 类 别 水 
平 (属性 的 定义 更 加 精细 ), 而 且 它 以 G-DINA 模型 
作为 加 工 函 数 ， 因 此 具有 一 般 性 认 知 诊断 模型 的 
优势 。 
2 ”基于 分 部 评分 模 

分 CDM 开发 


定义 Xi 表示 在 第 j 题 的 作答 反应 ，mi 表示 第 
j 题 的 满分 ， 则 X, e{0,1,...,m,} ,用 天 表示 测验 考 
察 的 属性 个 数 ，a 表示 被 试 的 属性 擎 握 模 式 ， 
o = (Apo ak akK)， 如 果 属 性 模式 为 w 的 被 试 
掌握 了 第 k 个 属性 ， 则 wj =1， 如 果 未 掌握 wk =0。 
定义 P(X; =x) 表示 属性 模式 为 w 的 被 试 在 第 j 
题 恰 得 x 分 的 概率 。gq, 表示 第 j 题 得 分 类 别 x 考察 
的 属性 向 量 ， CE WMR a 包含 了 第 k 
个 属性 ， 则 qi。 =]; 否则 q， =0. 

基于 局 部 logit (local logit) 函数 的 定义 ， 定义 
了 以 下 一 般 化 的 分 部 评分 认 知 诊断 模型 (General 
Partial Credit Diagnostic Model, GPCDM) 表 达 式 : 
P(X; =x|a)) _ 
P(X, =x-1|a,) 


型 Fa 


AED 


路 的 多 级 评 


gx [P(X, =x| a,) | = log 

(1) 
Bixo + Bib (q k0) 

其 中 g,() 表 示 链 接 函 数 ， 即 局 部 logit (local logit) 

PM, Bo 表示 截 距 参 数 ， 也 .nh(q,,a ) 表 示 属 性 考 

察 向 量 qj 和 属性 掌握 模式 中 的 一 组 线性 组 合 : 


(2) 


K 


jx 
(auaa xuv) Eevat Bick II ak 
k=l 


ERK, RRP j AT x 考察 的 属性 个 
BL, Biu 表示 Qu 的 主 效应 ， 即 掌握 属性 w 对 恰 得 x 
TIREE, Biv uy 表示 cu 和 an 的 二 阶 交互 效应 ， 
即 同时 掌握 属性 u 和 v 对 得 x 分 的 贡献 值 ， 
Pi ks 表示 w 到 aK, 的 K 阶 交 互 效应 ， 即 掌握 
所 有 属性 对 得 x 分 的 贡献 。 

假设 题目 的 满分 是 3 分 即 有 4 个 得 分 类 别 (0， 
1, 2, 3)， 此 时 ,可 以 得 到 每 个 得 分 类 别 的 答对 概率 ， 
如 下 所 示 : 


= P(X; =1|0;) 
g| PX; =1|9,) OE Oja) 
B _, P(X; =2|o) 
9p es =2| o Flere mia) 
E È P(X; =3| 0) 
[0% =31o) ley aa 
P(X, =0|0))+P(X, =1) 0) +P(X, =2|a,)+P(X, =3|a,)=1 


(3) 
化 解 公 式 3 的 方程 组 ， 可 以 得 到 如 下 公式 : 


1 
exp o| Bj +Bih(a jea) | 
exp > -9| Bie + PIh (qjeso )] 
exp ol Bic + Bich (a,c-41) | 
Dexp ol Bie + Bich (4 jeso )] 
exp Deo| Bie + Bich (a jesa ) | 


2 exp Dealer + Bich (q jc» )] 
(4) 


P(X; =0|a,)= 


P(X; =1|a)= 


P(X; =2|a@))= 


P(X; =3|a;)= 
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通过 公式 4, 进一步 可 以 概括 出 GPCDM 模型 的 每 
个 得 分 类 别 的 一 般 化 公式 : 

expD | Bic +BIh (qje,0 )| (5) 
> Exp X | Bic +B7cn (ajsa; )] 
AR S WE Pool Bie + Bich (qjes01)|=0。 

MAR Q 和 矩阵 定义 在 题目 水 平 ， 即 使 用 
Item-Q 时 ,并 且 假 设 属性 没有 主 效 应 ， 仅 保留 属性 
间 的 最 高 阶 交 互 效应 ， 则 公式 () 可 以 简化 为 : 

P(X, =xlo) _ Kx 
Oe = Piot jl K， [en (6) 

从 公式 (6) 可 以 看 出 ， 此 时 ，GPCDM 等 价 于 
PC-DINA 模型 这 两 者 的 参数 可 以 相互 转换 ， 
J jx = P xo» 1—sjx = Prot Bix, o 


综 上 , 已 有 的 分 部 评分 CDMs FN Q EREE X 
在 题目 水 平 , 而 GPCDM 的 Q 矩阵 定义 更 加 灵活 ， 
它 可 以 定义 在 题目 水 平和 得 分 类 别 水 平 ; 当 Q E 
阵 定义 在 得 分 类 别 时 , 即 Q 和 矩阵 的 定义 更 加 精细 
有 助 于 提供 更 多 的 诊断 信息 。 在 实际 应 用 中 ,使 月 
者 可 以 根据 自身 的 需求 灵活 选择 不 同类 型 的 Q H 
阵 。 另 外 , GDM 和 PC-DINA 的 理论 假设 均 比 较 严 
ay, 在 应 用 中 具有 较 大 的 限制 。 而 GPCDM 的 约束 
条 件 更 少 , 因而 , 理论 上 GPCDM 在 实际 应 用 中 更 
加 灵活 ， 更 具 优 势 。 


3 参数 估计 


GPCDM 的 参数 采用 EM 算法 来 估计 , 用 Xi 表 
示 被 试 i 在 题目 j 的 作 管 反 应 , 其 中 ，i=1,...,T 和 
j =1…,J，mj 表示 题目 j 的 满分 值 ，X; 表示 被 试 
i 的 得 分 向 量 Xi = (Xi Xy) 。 根 据 局 部 独立 性 
假设 , 可 以 得 到 边际 对 数 似 然 函数 : 
I 2K 
I(x) =log] > LX; | @,)p(a,) (7) 
<=] 
这 里 ，L(X; |o) 是 属性 模式 在 已 知 作答 向 量 Xi 的 
WPA PKA, pla) 是 属性 模式 a, 的 先 验 信息 ， 
L(X; |w) 可 以 通过 下 列 公式 计算 : 


J mi 
L(X; |@,)=] [| [Py =x e) 
j=l x=0 


Xj =X 表 示 被 试 ;在 第 j 题 的 得 分 ，I(X, = x) RE 
指示 性 变量 。EM 算法 在 每 次 迭代 中 包括 两 个 步 又 : 
期 望 步骤 (Expectation Step，E-stetp) 和 最 大 化 步骤 
(Maximization Step, M-step)oE 步 是 计算 属性 模式 为 a 
的 被 试 在 第 j 题 上 恰 得 x 分 的 人 数 ， 用 Bi 来 表示 ， 


P(X;=x|Q)= 


Pn 


TO] 


I(Xjj=x) 


(8) 


I 
Rix = IK, = x)P(a, | X;) (9) 
i=l 


这 里 P(o |X) 表示 被 试 ;在 已 知 作答 向 量 X, 时 属 
性 模式 属于 w 的 后 验 概率 , 可 以 通过 下 列 公 式 计 算 : 
L(X; | @,) p(a,) 
Z LX; | a) pCa) 
对 于 题目 j, M-step 的 目的 是 使 目标 函数 极 大 化 的 条 

件 下 来 估计 项 目 参数 ,目标 函数 见 下 列 公式 11: 


a 


P(a, | Xi;)= (10) 


2k mj 
f =>. > Ry log] P(Xy =xlo)| (11) 
l=1 x=0 


本 研究 的 参数 估计 程序 使 用 R 软件 来 编写 , 在 
R 软件 中 optim 函数 包含 了 几 种 常用 的 极 值 优 化 算 
法 。optim 函数 在 R 里 的 表达 式 是 optim (par, fn, 
method), par 代表 项 目 参数 初 值 , 锯 代表 目标 函数 ， 
method 可 选择 的 优化 算法 ， 因 此 , 使 用 optim 函数 
计算 极 值 时 只 需要 输入 par (项 目 参 数 初 值 ), WE 
可 以 从 均匀 分 布 中 随机 生成 , fn (Al fa eK) Ae FE 
的 优化 算法 即 可 。 

EM 算法 每 循环 一 次 ， 就 验证 是 否 达 到 收敛 条 
FE, MORIA SIC OAR, WGC RIE, APM, 重复 
EAM 步 。 最 后 , 通过 EM 算法 得 到 项 目 参数 后 ， 
采用 期 望 后 验 (Expected a Posteriori, EAP) 方 法 来 估 
计 被 试 参数 (属性 掌握 模式 )。 


4 实验 1: Monte Carlo 实验 人 研究 


实验 1 旨 在 检验 : (1)GPCDM 模型 的 参数 估计 
精度 及 其 性 能 ; (2) 当 采用 Cat-Q 和 矩阵 生成 数据 时 ， 
如 果 采 用 Item-Q 和 矩阵 分 析 数 据 是 否 会 降低 参数 估 
计 的 精度 ,Item-Q 可 以 从 Cat-Q 得 到 , 例如 , 表 2 
中 的 第 1 题 得 分 类 别 1 和 2 考察 的 属性 向 量 分 别 是 
(1, 0, 0, 0, 0) 和 (0, 1, 0, 0, 0)， 而 Item-Q 中 得 分 类 别 
1 和 2 考察 的 属性 向 量 都 是 (1, 1, 0, 0, 0)。 

自 变量 包括 : (1) 样 本 容量 (500，1000,2000 和 
4000)。(2) 属 性 个 数 (5 个 和 7 个 ); 5 属性 和 7 属性 的 
Cat-Q 见 表 2 和 表 3， 多 级 评分 题目 中 每 个 得 分 类 别 
最 多 考察 2 个 属性 , 并且 Cat-Q 中 每 个 属性 的 测量 
次 数 都 是 相同 的 。 另 外 , 为 了 提高 诊断 测验 的 效果 ， 
5 属性 和 7 属性 的 Cat-Q 分 别 包 含 了 5 个 和 7 个 二 
级 评分 的 题目 ， 且 这 些 测 验 包 括 了 一 个 完整 的 可 达 
和 矩阵 (了 阵 )。(3) 测 验 长 度 , 5 属性 时 包括 20 和 40 题 ， 
7 属性 时 包括 25 和 50 题 , 40 题 和 50 题 的 Cat-Q 与 
20 题 和 25 题 的 Cat-Q 是 重复 关系 。 为 了 减少 随机 
误差 ,每 种 条 件 下 重复 模拟 实验 100 次 。 
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表 2 5 属性 的 Cat-Q 4ER 
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表 3 7 属性 的 Cat-Q 和 矩阵 
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4.1 参数 的 模拟 

41.1 被 试 参数 的 模拟 

样本 容量 包含 4 个 水 平 , N = 500, 1000, 2000 和 
4000。 当 属性 个 数 是 5 个 时 ， 所 有 可 能 的 属性 掌握 
模式 是 2 = 32 种 , 被 试 的 属性 模式 从 32 种 模式 中 
随机 生成 ， 同 理 ， 当 考察 的 属性 个 数 等 于 7 个 时 , 被 
试 的 属性 模式 从 2” =128 种 可 能 的 模式 中 随机 生成 。 

41.2 ”题目 参数 的 模拟 

题目 参数 的 模拟 方法 参考 了 Ma 和 de la Torre 
(2016) 的 做 法 ，logit{ gs[ P(X, = xla, =D |] 从 均匀 分 
布 U(0.75,D) 中 随机 生成 ， 而 logit{g | P(X; =xlw = 
0) 从 均匀 分 布 U(0,0.25) 中 随机 生成 ， 这 里 w =1 
表示 被 试 已 经 掌握 了 第 j 题 得 分 类 别 x 考察 的 所 有 
属性 ， 而 w =0 表示 被 试 未 掌握 得 分 类 别 x 考察 的 
任意 一 个 属性 。 当 属性 模式 a 掌握 的 属性 个 数 介 于 
w=0 和 w=1 之 间 时 ， 即 we{fw =0,0, =1}, JERY, 
属性 模式 a, 相对 应 的 概率 从 以 w = 0 Fil a, =1 所 对 
应 概率 为 两 个 边界 值 的 均匀 分 布 中 随机 生成 。 

为 了 保证 作答 概率 满足 单调 递增 性 ， 即 掌握 的 
属性 越 多 答对 题目 的 概率 越 大 , 约定 如 果 属 性 模式 
a 的 被 试 掌握 的 题目 j 考察 的 属性 个 数 多 于 ap, 
TY w 对 应 的 项 目 反 应 概率 大 于 a o 
4.1.3 ”作答 数据 的 模拟 

根据 模拟 得 到 的 项 目 参 数 ， 可 以 计算 属性 模式 
为 w 的 被 试 在 第 j 题 恰 得 x 分 的 概率 PX, = xla), 
而 每 个 得 分 类 别 对 应 的 概率 已 知 , 属性 掌握 模式 为 
o 的 被 试 在 第 j 题 的 作答 从 对 应 的 分 类 分 布 中 抽 
取 。 假设 被 试 在 某 一 题 恰 得 t 分 (te {0,1,2,3, 4} XEN 
的 概率 是 {0.03, 0.08, 0.12, 0.14, 0.63} ， 则 被 试 在 
该 题 的 得 分 从 te {0,1,2,3, 人 中 抽取 一 个 数 ， 而 每 个 
得 分 被 抽取 的 概率 分 别 是 0.03, 0.08, 0.12, 0.14 和 
0.63. 
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4.2 ”评价 标准 


评价 标准 包括 被 试 参数 和 项 目 参 数 的 返 真性 ， 
它们 的 返 真 性 分 别 用 模式 判 准 率 (Pattern Match 
Rate，PMR) 和 均 方 根 误差 指标 (Root Mean Square 
Error, RMSE) 来 反映 (Ma & de la Torre, 2016)。 两 个 
标的 计算 公式 如 下 : 


< (r) 
7 x 
I (a; =4,;) 
=l 


M> 


li 


Pe T (12) 
x 


FP I (a, =) 表示 第 次 实验 估计 的 ww 和 
ARG, BASES, WE IO (a, =4,) =1, 
否则 To =6)=0，N 和 R=100 分 别 表 示人 数 和 


THF |PO (x, =x1q)-H9(x, -xla )] 


r=1 1=1 j=1 


RMSE = 


Jx2* xR 
(13) 

其 中 PC ey, =x|a,) All PO(X, =xloi) 分 别 表 
示 第 7 次 实验 估计 的 和 真实 的 属性 模式 w 在 第 ) 题 
得 分 为 x 的 概率 。PMR 值 越 大 , RMSE 值 越 小 表示 
估计 误差 越 小 ,表明 参数 估计 算法 越 有 效 。 
4.3 ”实验 结果 

表 4 和 表 5 分 别 显 示 了 各 种 实验 条 件 下 的 测验 
PMR 指标 和 RMSE 指标 。 

需要 强调 的 是 , 作 管 数据 是 基于 类 别 水 平 Q 甜 
阵 (Cat-Q) 生 成 的 。 因 此 , 为 了 评估 参数 估计 的 精度 ， 
主要 关注 Cat-Q 的 结果 。 从 表 4 的 结果 可 见 ， 属 性 
个 数 等 于 5 且 使 用 Cat-Q 时 , 测验 长 度 在 20 题 时 ， 
不 同样 本 容量 下 的 PMR 值 都 在 0.94 以 上 ,而 当 测 
验 长 度 增加 到 40 题 时 , 不 同样 本 容量 下 的 PMR 值 
均 在 0.99 以 上 。 当 属性 个 数 等 于 7 上 且 使 用 Cat-Q IY, 
在 测验 长 度 为 25 题 时 , 不 同样 本 容量 下 的 PMR 值 
都 在 0.86 以 上 ,而 在 测验 长 度 为 50 题 时 , 不 同样 
本 容量 下 的 PMR 值 都 在 0.98 以 上 。 


表 4 各 种 实验 条 件 下 被 试 参数 返 真 性 PMR 值 


属性 个 数 WEKE EA adie 
500 1000 2000 4000 
5 20 Item-Q 0.931 0.939 0.943 0.951 
Cat-Q 0.942 0.948 0.949 0.954 
40 Item-Q 0.991 0.993 0.995 0.996 
Cat-Q 0.995 0.996 0.998 0.998 
7 25 Item-Q 0.818 0.827 0.852 0.858 
Cat-Q 0.864 0.866 0.868 0.872 
50 Item-Q 0.977 0.979 0.981 0.986 
Cat-Q 0.985 0.987 0.989 0.991 
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K 5 的 结果 显示 ， 当 使 用 Cat-Q IN, 不 管 属性 
个 数 、 测 验 长 度 和 样本 容量 如 何 变化 , 在 所 有 条 件 
下 的 测验 RMSE 值 均 在 0.05 以 下 。 随 着 样本 量 的 
增加 , RMSE 也 随 之 降低 ,例如 ,属性 个 数 等 于 5 和 
测验 长 度 等 于 20 时 , 在 样本 容量 为 500 的 条 件 下 ， 
基于 Item-Q 和 Cat-Q 的 RMSE 值 分 别 是 0.103 和 
0.043, 同样 的 条 件 下 ， 当 样本 容量 增加 到 4000 AY, 
基于 Item-Q 和 Cat-Q 的 RMSE 值 分 别 降低 到 0.053 
和 0.015. 

K 6 显示 了 在 属性 个 数 为 5, 样本 容量 为 1000， 
测验 长 度 为 20 题 时 , Cat-Q Fil Item-Q 条 件 下 每 一 题 
的 RMSE 指标 ， 由 于 其 他 实验 条 件 下 的 结果 和 表 6 
有 相似 的 趋势 , 因此 ， 限 于 篇 幅 的 原因 ， 只 提供 了 
一 种 条 件 下 的 结 

WE 6 的 结果 可 以 发 现 , 由 于 后 5 题 是 二 级 评 
分 的 题目 ， 此 时 Cat-Q 和 Item-Q 是 等 价 的 ,因此 
Cat-Q FI Item-Q 的 RMSE 值 基本 相当 ， 而 在 多 级 评 
分 的 前 15 题 中 , 基于 Cat-Q 得 到 的 RMSE 值 始终 
要 小 于 基于 Item-Q 的 RMSE 值 ， 基于 Cat-Q 的 最 
大 RMSE 是 0.036。 另 外 , 还 可 以 发 现 , 二 级 评分 题 
目的 RMSE 要 略 低 于 多 级 评分 的 题目 ， 这 是 因为 ， 


二 级 评分 题目 考察 的 属性 个 数 要 少 于 多 级 评分 题 
目 。 这 个 结果 充分 表明 , EM 算法 可 以 提供 精确 的 
参数 估计 精度 ， 和 Item-Q 相 比 , 使 用 Cat-Q 有 助 于 
提供 更 多 有 价值 的 诊断 信息 ， 从 而 提高 诊断 测验 
的 精度 。 

WA 4 和 表 5 基于 Cat-Q 的 结果 可 以 发 现 ， 当 
属性 个 数 等 于 5 或 7 时, 基于 Cat-Q 的 PMR 在 短 
测验 (20 题 和 25 题 ) 时 , 分 别 达到 了 0.9 和 0.8 WE, 
而 在 长 测验 条 件 下 (40 和 50 题 ) 时 ,它们 的 PMR 值 
都 在 0.95 LAE, 它们 的 RMSE 值 均 在 0.05 LAF. 
这 充分 说 明 本 研究 提出 的 模型 参数 估计 算法 可 以 
提供 稳健 、 精 确 的 估计 精度 。 

对 比 基 于 不 同类 别 Q@ 和 矩阵 的 结果 可 以 发 现 , 在 
同样 的 实验 条 件 下 , 与 基于 Cat-Q 结果 相 比 ， 基 于 
Item-Q 导致 更 低 的 PMR 值 ， 和 更 高 的 RMSE 值 。 
这 两 种 Q 矩阵 之 间 的 差异 尤其 在 短 测验 (5 属性 时 
20 题 或 7 属性 时 25 题 ) 或 被 试 人 数 较 少 (例如 500 
人 时 ) 的 条 件 下 更 加 明显 , 例如 ， 当 属性 个 数 等 于 7， 
测验 长 度 为 20, 被 试 人 数 为 500 人 时 ,从 表 4 可 以 
Git, 使 用 Cat-Q 时 的 PMR 值 大 约 是 0.86, 而 当 使 
用 Item-Q 时 的 PMR 值 大 约 是 0.82。 而 从 表 5 可 以 


表 5 各 种 实验 条 件 下 的 项 目 参数 返 真 性 RMSE 值 
属性 个 数 测验 长 度 。  Q 矩阵 的 类 型 aes 
500 1000 2000 4000 
5 20 Item-Q 0.103 0.087 0.067 0.053 
Cat-Q 0.043 0.028 0.022 0.015 
40 Item-Q 0.101 0.086 0.065 0.052 
Cat-Q 0.038 0.028 0.019 0.015 
7 25 Item-Q 0.104 0.092 0.079 0.049 
Cat-Q 0.042 0.032 0.020 0.014 
50 Item-Q 0.108 0.089 0.070 0.047 
Cat-Q 0.038 0.026 0.019 0.014 
#6 +4 K=5 #1 N=1000 BY 20 2A) RMSE 值 
mE Q 和 矩阵 的 类 型 we Q 和 矩阵 的 类 型 
Cat-Q Item-Q Cat-Q Item-Q 
1 0.025 0.095 11 0.025 0.082 
2 0.032 0.092 12 0.026 0.088 
3 0.033 0.069 13 0.027 0.091 
4 0.036 0.081 14 0.029 0.086 
5 0.024 0.086 15 0.028 0.088 
6 0.034 0.082 16 0.018 0.019 
7 0.033 0.083 17 0.021 0.020 
8 0.023 0.079 18 0.019 0.019 
9 0.034 0.069 19 0.020 0.019 
10 0.024 0.084 20 0.020 0.021 
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发 现 , 在 同样 的 条 件 下 , 使 用 Cat-Q 时 的 RMSE 值 
大 约 是 0.04， 而 使 用 Item-Q 时 , 它 的 RMSE 值 则 大 
约 是 0.1。 这 些 结 果 都 表明 如 果 采 用 Item-Q 来 分 析 
Cat-Q 产生 的 数据 确实 会 降低 项 目 参数 和 被 试 参数 
的 估计 精度 。 这 个 结论 启发 实际 使 用 者 ,在 编写 多 
级 评分 的 诊断 题目 时 ,对 于 Q EERIE, 应 尽量 
构建 基于 得 分 类 别 的 测验 Q 和 矩阵 ( 即 Cat-Q), 使 用 
Cat-Q 有 利于 提供 更 多 的 诊断 信息 ， 从 而 提高 诊断 
的 精度 。 


5 实验 2: 实证 数据 研究 


5.1 ”研究 目的 

为 了 进一步 探讨 和 比较 GPCDM 在 实证 数据 中 
的 效果 ,比较 了 三 个 基于 分 部 评分 模型 思路 的 多 级 
评分 认 知 诊断 模型 ， 即 本 文 新 开发 的 GPCDM 以 及 
国际 上 GDM 和 了 PC-DINA 模型 ,在 国际 数学 与 科学 
趋势 研究 (Trends in International Mathematics and 
Science Study, TIMSS) 2007 四 年 级 数学 评估 测验 数 
据 中 的 表现 。TIMSS 是 由 国际 教育 成 就 评价 协会 
(International Association for the Evaluation of 
Educational Achievement) 发 起 的 一 个 国际 大 型 教育 
评估 项 目 , 该 项 目 评估 的 对 象 是 全 球 4 年 级 和 8 年 
级 的 数学 与 科学 学 业 成 就 。TIMSS 从 1995 年 开始 
第 一 次 测试 ,每 4 年 举行 一 次 -在 2015 年 的 TIMSS 
评估 测验 中 , 来 自 世 界 各 地 的 60 多 个 国家 参加 了 
这 次 测试 。 

本 文 分 析 了 TIMSS (2007) 数 据 的 一 个 子 集 ， 其 
中 包括 823 名 学 生 对 11 个 题目 涉及 8 个 属性 的 数 


据 。11 个 题目 中 ,， 有 3 个 多 级 评分 题 , 8 个 二 级 评分 
题目 , 它 的 Q FEMEWLR 7。 
5.2 ”评价 标准 

评价 标准 包括 以 下 3 个 方面 : 

(1) 模型 和 测验 数据 整体 拟 合 度 : 通过 模型 拟 
合 指标 : -2 倍 对 数 似 然 (-2 log-likelihood values, 
-2LL)，Akaike 的 信息 准则 (Akaike’s information 
criterion, AIC; Akaike，1974)， 和 贝 叶 斯 信息 准则 
(Bayesian Information Criterion, BIC; Schwarz, 1978) 
等 来 比较 3 个 模型 的 拟 合 度 。 

(2) 两 类 特殊 被 试 的 诊断 属性 边际 概率 
(Marginal Probability): 两 类 特殊 的 被 试 是 指 测验 
得 0 分 的 被 试 和 得 满分 ( 即 14 分 ) 的 被 试 , 一般 来 说 ， 
得 0 分 的 被 试 意味 着 对 所 考察 的 属性 基本 没 掌握 ， 
而 得 满分 的 考生 应 该 完全 掌握 了 所 考察 的 属性 ， 因 
此 , 理论 上 , 得 0 分 的 被 试 估计 得 到 的 属性 边际 概 
率 应 该 很 低 (接近 于 0)， 而 得 满分 的 被 试 估 计 得 到 
属性 边际 概率 应 该 很 高 (接近 于 1)。 属 性 边际 概率 
的 计算 公式 如 下 : 


2k 
Pu = > Pla, | X; an 
1=1 


P(a | Xi) 计算 方法 可 参考 公式 (10)。 

(3) 认 知 诊断 信和 度 分 析 : Templin 和 Bradshaw 
(2013) 提 出 了 一 种 计算 CDM 下 属性 信和 度 (attribute 
reliability) 的 方法 , 该 方法 可 以 分 为 以 下 几 步 : (1) 首 
先 , 使 用 选 定 的 CDM 估计 每 个 被 试 的 属性 边际 概 
率 ; (2) 根 据 第 一 步 估 计 得 到 的 属性 边际 概率 ,构建 


(14) 


表 7 实证 数据 的 Q 矩阵 


Item Cat Al A2 A3 A4 AS A6 A7 A8 
1 1 1 1 0 0 0 0 0 0 
2 1 0 1 1 0 1 0 0 0 
3 1 1 0 0 0 0 1 0 1 
3 2 1 0 0 0 0 1 0 1 
4 1 0 1 1 0 0 0 0 0 
5 1 0 1 1 0 0 0 0 0 
6 1 0 1 0 1 0 0 0 0 
7 1 0 1 1 0 1 0 0 0 
T 2 0 0 0 0 0 0 1 0 
8 1 0 1 1 0 1 0 1 0 
9 1 0 1 1 1 0 0 0 0 
9 2 0 1 1 1 0 0 0 0 
10 1 0 1 1 0 0 0 0 0 
11 1 1 1 0 0 0 1 0 1 
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四 格 列 联 表 ， 其 中 的 列 联 表 的 四 个 元 素 可 以 通过 下 
列 公 式 计 算 : 


ig. , 
P(a@,, =1,a,, =)= a Pix Pik 
i=l 


1%., g 
P(a,, =la,, =0) = 一 > Pixr (1 — Pix) 
Na (15) 


Tw er 
P(a,, =0,0x, =1)= wel Bix) Bix 
i=l 


ae A 
P(a,, =0,æ;, =0) N E- AA- Bix) 
i=l 


这 里 Pi 表示 被 试 i 在 属性 k 的 边际 概率 ， 可 以 
通过 公式 (14) 计 算得 到 ; (3) 根 据 第 2 步 构 建 的 列 联 
Be, 计算 四 格 相关 系数 ,将 四 格 相关 系数 当 作 每 个 
属性 的 信和 度 指标 。 

5.3 ”研究 结果 
5.3.1 ”模型 拟 合 结果 

表 8 显示 了 3 个 模型 的 相对 拟 合 指标 ， 结 果 显 
7x, GDM 和 PC-DINA 这 2 个 模型 相 比 而 言 , 在 3 
个 拟 合 指标 中 , GDM 模型 的 拟 合 更 优 。 而 这 3 个 模 
型 相 比 而 言 GPCDM 在 3 个 拟 合 指标 的 值 都 是 最 
小 的 ， 即 与 GDM 和 PC-DINA 模型 相 比 , GPCDM 
是 相对 拟 合 更 好 的 模型 。 


表 8 模型 相对 拟 合 指标 


5.3.2 ”两 类 特殊 被 试 的 属性 边际 概率 
K 9 显示 了 3 个 模型 估计 的 两 类 特殊 被 试 的 属 
性 边际 概率 ， 对 于 得 0 分 被 试 而 言 , 3 个 模型 的 平均 
属性 边际 概率 从 低 到 高 顺序 依次 是 : GPCDM 、 
GDM 和 PC-DINA 模型 。 对 比 3 个 模型 的 估计 结 
可 以 发 现 , PC-DINA 模型 估计 的 属性 边际 概率 在 8 
个 属性 上 都 要 明显 高 于 GDM 和 GPCDM, 其 中 属 
性 Al 的 边际 概率 达到 了 0.548, 平均 属性 边际 概率 
达到 了 0.375, PC-DINA 模型 会 高 估 这 些 得 0 分 被 
试 的 属性 边际 概率 。GDM 模型 和 GPCDM 估计 的 
属性 边际 概率 都 比较 低 ， 两 者 的 平均 属性 边际 概率 
分 别 是 0.093 和 0.001, 但 就 具体 属性 而 言 ,GDM 模 
型 在 属性 A7 的 边际 概率 达到 了 0.278, 与 GPCDM 
的 结果 相 比 , GDM 模型 高 估 了 属性 A7 的 边际 概率 。 
对 于 得 满分 (14 分 ) 的 被 试 而 言 ，3 个 模型 的 平 
均 属 性 边际 概率 从 高 到 低 顺 序 依次 是 : GPCDM , 
GDM 和 PC-DINA 模型 。PC-DINA 模型 只 有 在 属 
性 A2、A3 和 A7 的 属性 边际 概率 达到 了 0.9 以 上 ， 
而 在 其 余 属性 的 边际 概率 都 在 0.7 以 下 , 平均 属性 
边际 概率 只 有 0.749; GDM 模型 和 GPCDM 的 平均 
属性 边际 概率 分 别 是 0.881 和 0.975, 但 与 GPCDM 
FALL, GDM 模型 在 属性 A1、A6 和 Ag 的 边际 概率 
分 别 是 0.786、0.671 和 0.671， 都 明显 低 于 GPCDM 
的 0.984, 0.998 Ail 0.998。 


m 拟 合 指标 总 体 来 看 ， 对 于 得 0 分 和 满分 的 被 试 , 拟 合 最 
-2LL AIC BIC PEAS GPCDM 模型 估计 的 结果 是 最 合理 的 ， 其 次 是 
GDM 10964 11576 13017 GDM 模型 ， 最 后 是 PC-DINA 模型 。 
PC-DINA 11191 11757 13089 533 ”属性 信 度 分 析 
GPCDM 10598 11312 12993 表 10 显示 了 3 个 模型 拟 合 该 实证 数据 时 的 属 
表 9 两 类 特殊 被 试 的 属性 边际 概率 
分 数 模型 Al A2 A3 A5 A6 A7 A8 Mean 
0 GDM 0.024 0.000 0.001 0.076 0.062 0.150 0.278 0.150 0.093 
PC-DINA 0.548 0.108 0.387 0.204 0.432 0.470 0.382 0.470 0.375 
GPCDM 0.000 0.000 0.000 0.000 0.005 0.000 0.000 0.000 0.001 
14 GDM 0.786 1.000 0.999 0.980 0.971 0.671 0.975 0.671 0.881 
PC-DINA 0.647 0.988 0.934 0.698 0.601 0.609 0.905 0.609 0.749 
GPCDM 0.984 0.981 1.000 1.000 0.839 0.998 1.000 0.998 0.975 
R10 每 个 模型 下 的 属性 信和 度 
模型 Al A2 A3 A4 A5 A6 A7 A8 Mean 
GDM 0.844 0.887 0.899 0.946 0.906 0.997 0.914 0.711 0.888 
PC-DINA 0.644 0.716 0.827 0.721 0.507 0.529 0.779 0.529 0.656 
GPCDM 0.966 0.907 0.881 0.951 0.873 0.973 0.985 0.841 0.922 
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性 信和 度 , K 10 的 最 后 一 列表 示 8 个 属性 的 平均 信 
度 。 对 于 GDM 模型 而 言 ， 属性 AS 的 信和 度 指标 只 有 
0.710, 是 相对 最 低 的 , 而 其 余 7 个 属性 的 信 度 指标 
都 在 0.8 WE, 属性 信和 度 指 标的 最 高 的 是 A6 属性 ， 
达到 了 0.997。 对 于 PC-DINA 模型 而 言 , 属性 AS 
的 信和 度 指 标 是 相对 最 低 ， 只 有 0.507， 而 属性 A3 的 
信和 度 指标 最 高 , 但 也 只 有 0.827。 而 GPCDM 的 8 
个 属性 最 低 信 度 指标 是 0.841。 

总 体 而 言 , PC-DINA 模型 的 8 个 属性 的 信和 度 指 
标 都 要 明显 低 于 GDM 和 GPCDM。 而 GDM 和 
GPCDM 相 比 而 言 , GPCDM 在 属性 AL1、A2 、A4、 
A7 和 A8 的 信和 度 指 标 也 要 高 于 GDM 模型 ， 即 
GPCDM 在 5 个 属性 的 信和 度 要 优 于 GDM 模型 ， 
GPCDM 在 剩余 属性 A3, A6 和 A7 的 信 度 指标 和 
GDM 非常 接近 。 从 平均 属性 信和 度 指标 来 看 ， 
GPCDM 的 平均 属性 信和 度 是 最 高 的 ,其 次 是 GDM 
模型 ， 最 后 是 PC-DINA， 即 GPCDM 分 析 该 实证 数 
据 的 效果 更 优 。 


6 研究 结论 与 讨论 展望 


6.1 研究 结论 

本 研究 开发 了 一 种 更 为 灵活 、 功 能 更 为 强大 ， 
且 更 有 理论 意义 和 应 用 价值 的 广义 多 级 评分 模型 ， 
通过 模拟 研究 验证 了 GPCDM 的 参数 估计 精度 ， 最 
后 通过 一 个 实证 数据 比较 了 GPCDM 和 已 有 基于 分 
部 评分 思路 的 多 级 评分 CDMs (GDM 和 PC-DINA) 
的 应 用 效果 ,研究 结论 主要 有 : 

(1) Monte Carlo 实验 研究 发 现 , 本 研究 开发 的 
GPCDM 的 属性 模式 诊断 正确 率 PMR 在 5 属性 时 
都 在 0.9 以 上 , 项 目 参数 的 RMSE 平均 不 到 0.05, 
这 表明 GPCDM 模型 具有 和 较 高 的 参数 估计 精度 。 

(2) 当 使 用 Item-Q WE Cat-Q 生成 的 数据 时 ， 
题目 和 被 试 参数 的 估计 精度 都 会 降低 。 因 此 ,建议 
研究 者 在 构建 多 级 评分 认 知 诊断 的 测验 Q 矩阵 时 ， 
应 尽量 构建 基于 得 分 类 别 的 测验 Q EEI Cat-Q), 
它 能 提供 更 多 的 诊断 信息 。 

(3) 最 后 比较 了 GPCDM, GDM 和 PC-DINA 
模型 在 TIMSS (2007) 数 据 的 实际 应 用 效果 ,结果 发 
现 GPCDM 的 模型 拟 合 度 更 优 , 并 且 GPCDM 分 析 
该 数据 时 的 效果 也 更 好 。 这 表明 新 模型 在 实践 应 用 
中 具有 一 定 的 优势 。 

6.2 ”讨论 和 展望 

为 使 研究 的 结果 不 失 一 般 性 以 及 进一步 拓展 

多 级 评分 CDMs 的 相关 研究 , 未 来 至 少 还 可 以 在 以 


下 几 方 面 展 开 人 研究 : 

(1) 本 研究 假设 属性 之 间 是 相互 独立 的 , Q E 
阵 的 标定 完全 正确 , 另外 ， 本 研究 仅 采 用 了 EAP 方 
法 来 估计 被 试 参数 ， 并 未 对 其 他 方法 进行 对 比 研究 ， 
这 些 因素 都 可 能 会 影响 本 研究 的 结论 。 

(2) 同一 份 测验 中 , 不 同 的 题目 可 能 拟 合 不 同 
的 CDM, 在 二 级 评分 的 数据 中 , de la Torre (2011) 
应 用 Wald 统计 检验 的 方法 为 每 个 题目 选择 不 同 的 
CDM。 而 在 多 级 评分 数据 中 ， 如何 为 每 一 题 选择 最 
适合 的 多 级 评分 CDM 也 有 待 进一步 研究 。 

(3) 多 级 评分 的 Q@ 和 矩阵 可 以 定义 在 得 分 类 别 水 
F, 这 有 助 于 提供 更 多 诊断 信息 , 但 是 这 也 会 增加 
Q 矩阵 标定 的 工作 量 。 目 前 , 已 经 有 学 者 开发 了 一 
系列 辅助 Q 和 矩阵 标定 的 算法 , 但 这 些 方法 只 局 限于 
二 级 评分 的 模型 。 未 来 的 研究 可 以 继续 探讨 多 级 评 
分 CDM 中 Q 和 矩阵 的 标定 算法 。 

(4) 本 研究 开发 的 模型 假设 考生 的 解 题 策略 只 
有 一 种 ,但 在 实际 应 用 中 ,同一 道 题目 经 常 存在 不 
同 的 解 题 策 略 。 如 果 在 诊断 测验 中 考虑 了 被 试 解 题 
策略 的 差异 ,这 也 有 助 于 提供 更 多 有 价值 的 信息 ， 
从 而 提高 诊断 的 精度 ( 涂 冬 波 ， 蔡 艳 ， 戴 海 琦 ， 丁 树 
恨 ，2012)。 因 此 , 开发 多 策略 的 多 级 评分 CDM 值 
得 进一步 研究 。 

(5) 已 有 的 CD-CAT 相关 研究 ， 几 乎 都 是 基于 
二 级 评分 的 模型 而 展开 , 事实 上 ,多 级 评分 
CD-CAT (Polytomous CD-CAT, PCD-CAT) 在 实际 应 
用 中 具有 更 广阔 的 前 景 ， 不 仅 是 因为 心理 或 教育 评 
佑 测验 中 存在 大 量 的 多 级 评分 数据 ， 更 重要 的 是 与 
二 级 评分 的 题目 相 比 ， 多 级 评分 题目 可 以 提供 更 多 
的 信息 ， 即 多 级 评分 的 CD-CAT 有 助 于 进一步 提高 
测验 的 效率 , 未 来 的 研究 可 以 针对 PCD-CAT 的 相 
关 算 法 展开 研究 。 
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Development of a Generalized Cognitive Diagnosis Model for polytomous responses 
based on Partial Credit Model 
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Abstract 

Currently, a large number of cognitive diagnosis models (CDMs) have been proposed to satisfy the 
demands of the cognitively diagnostic assessment. However, most existing CDMs are only suitable for 
dichotomously scored items. In practice, there are lager polytomously-score items/data in educational and 
psychological tests. Therefore, it is very necessary to develop CDMs for polytomous data. 

Under the item response theory (IRT) framework, the polytomous models can be divided into three 
categories: (i) the cumulative probability (or graded-response) models, (ii) continuation ratios (or sequential) 
models, and (iii) the adjacent-category (or partial-credit) models. 

At present, several efforts have been made to develop polytomous partial-credit CDMs, including the 
general diagnostic model (GDM; von Davier, 2008) and the partial credit DINA (PC-DINA; de la Torre, 2012) 
model. However, the existing polytomous partial-credit CDMs need to be improved in the following aspects: (1) 
These CDMs do not consider the relationship between attributes and response categories by assuming that all 
response categories of an item measure the same attributes. This may result in loss of diagnostic information, 
because different response categories could measure different attributes; (2) More importantly, the PC-DINA is 
based on reduced DINA model. Therefore, the current polytomous CDMs are established under strong 
assumptions and do not have the advantages of general cognitive diagnosis model. 

The current article proposes a general partial credit diagnostic model (GPCDM) for polytomous responses 
with less restrictive assumptions. Item parameters of the proposed models can be estimated using the marginal 
maximum likelihood estimation approach via Expectation Maximization (MMLE/EM) algorithm. 
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Study | aims to examine (1) whether the EM algorithm can accurately estimate the parameters of the 
proposed models, and (2) whether using item level Q-matrix (referred to as the Item-Q) to analyze data 


generated by category level Q-matrix (referred to as the Cat-Q) will reduce the accuracy of parameter estimation. 


Results showed that when using Cat-Q fitting data, the maximum RMSE was less than 0.05. When the number 
of attributes was equal to 5 or 7, the minimum pattern match rate (PMR) was 0.9 and 0.8, respectively. These 
results indicated that item and person parameters could be recovered accurately based on the proposed 
estimation algorithm. In addition, the results also showed that when Item-Q is used to fit the data generated by 
Cat-Q, the estimation accuracy of both the item and person parameters could be reduced. Therefore, it is 
suggested that when constructing the polytomously-scored items for cognitively diagnostic assessment, the item 
writer should try to identify the association between attributes and categories. In the process, more diagnostic 
information may be extracted, which in turn helps improve the diagnostic accuracy. 

The purpose of Study 2 is to apply the proposed model to the TIMSS (2007) fourth-grade mathematics 
assessment test to demonstrate its application and feasibility and compare with the exiting GDM and PC-DINA 
model. The results showed that compared with GDM and PC-DINA models, the new model had a better model 
fit of test-level, higher attribute reliability and better diagnostic effect. 
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